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: [目的 /意义 ] 数字 人 文 研究 的 图 像 资源 中 蕴含 大 量 信 


息 但 利用 率 极 低 ,不 能 在 异 构 数据 库 和 不 同 的 应 用 程序 中 


得 到 有 效 的 共享 与 重用 ,国际 图 像 互 操作 框架 打破 了 图 像 资源 交换 和 共享 的 障碍 。 [方法 “过程 ] 研究 结合 国际 


图 像 互 操作 框架 和 语义 知识 图 谱 ( 关联 数据 技术 ) 进 行 


图 像 资源 的 整合 、 共 享 与 知识 发 现 ,对 资源 之 间 的 关系 进行 


揭示 和 知识 推理 ,并 通过 CNNs 算法 对 图 像 特征 的 提取 与 识别 实现 基于 图 像 特征 的 语义 检索 辅助 知识 发 现 。[ 结 


词 : 数字 人 文 ”图像 资源 整合 
: G203 


果 / 结 论 ] 提出 一 套数 字 人 文 图 像 资源 整合 与 知识 发 现 解 决 方案 ,并 以 印章 图 像 资 源 为 应 用 对 象 构建 “印章 知识 
中 心 "对 以 上 解决 方案 的 可 行 性 和 实践 性 进行 实证 检验 。 
MF 关联 数据 知识 图 谱 


知识 发 现 


2 研究 现状 


2.1 MF 在 图 像 资源 语义 互 操作 方面 的 研究 进展 


目前 在 特定 领域 图 像 注释 模型 有 利于 用 户 对 图 像 的 理 
解 ,但 在 不 同 领 域 图 像 资源 的 共享 、 复 用 、 整 合 及 知识 
发 现 等 方面 还 存在 壁垒 和 障碍 。 图 像 仍然 被 禁 铀 在 数 
据 库 中 ,图 片 无 法 共享 和 复 用 ,国际 图 像 互 操作 框架 
(International Image Interoperability Framework ,IIF ) 在 
国内 应 用 仍 处 于 探索 阶段 ,国际 互 操作 标准 、 关 联 数 
据 、 知 识 图 谱 等 相关 技术 在 图 像 资 源 方面 的 应 用 也 较 
少 。 图像 的 共享 、 复 用 、 整 合 与 知识 发 现成 为 国内 数字 


re 
人 文 领域 吸 待 解决 的 重要 问题 之 一 。 


ARTE 


在 图 像 数 据 互 操作 方面 ,国外 有 着 较为 丰富 的 理 
论 研究 和 实践 应 用 经 验 。IHF”” 于 2015 年 由 欧洲 和 美 


国 的 图 书馆 等 29 个 非 营 利 图 像 资源 存储 机 构 共 同 成 
立 , 对 以 图 像 为 载体 的 书籍 .地 图 .卷轴 手稿. 乐谱、 档 
案 等 在 线 资源 进行 统一 展示 和 共享 。 国 际 上 主要 的 文 
化 遗产 研究 机 构 都 采用 了 ILE 对 其 图 像 进行 管理 和 共 
Eo IF 解决 了 文化 资源 数字 化 图 像 难 以 被 发 现 . 再 
利用 .引用 交换 .比较 分 析 等 问题 ,为 确保 全 球 图 像 存 
储 的 互 操作 性 和 可 获取 性 提供 了 国际 化 通用 标准 。 

在 数据 注释 方面 也 存在 成 熟 的 国际 标准 ,开放 协 
同 标注 (Open Annotation Collaboration , OAC) 5 是 最 早 
提出 的 促进 标注 的 规范 化 .共享 和 复 用 的 国际 标准 。 
W3C 的 开放 注释 数据 模型 (Open Annotation Data Mod- 
el, OADM) Æ OAC 的 基础 上 引入 了 关联 数据 技术 ,其 
作为 数据 注释 的 国际 互 操 作 框 架 , 以 众 包 的 方式 提供 
在 线 的 语义 标注 , 允许 数字 人 文 研究 学 者 添加 更 多 的 
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关联 ,丰富 其 内 容 , 并 基于 关联 数据 这 个 将 数据 开放 到 
互联 网 的 方法 创建 资源 .注释 之 间 的 关联 ,实现 平台 间 
资源 和 注释 共享 与 开放 。 

学 者 曾 昔 在 相关 会 议 上 曾 多 次 提出 使 用 开放 协同 
标注 和 IIF 实现 图 像 语义 深度 标 引 的 建议 ,对 这 些 国 
际 标准 在 国内 的 应 用 起 到 引导 和 推动 作用 ”。 上 海 图 
书馆 ` 武 汉 大 学 ,北京 大 学 复旦 大 学 以 及 上 海 慧 游 文 
化 传播 有 限 公司 等 机 构 都 在 积极 探索 基于 IF f EDT 
管理 与 共享 方案 。 目 前 昌 尚 未 见 基 于 TIIF 和 关联 数据 
的 图 像 资源 的 大 规模 的 应 用 报道 ,但 随 着 技术 的 突破 ， 
IIF 在 数字 人 文 领域 图 像 资源 的 应 用 可 能 很 快 进入 一 
个 爆发 点 。 

2.2 语义 知识 图 谱 ( 关联 数据 ) 在 图 像 资源 整合 与 知 
讽 纤 现 方面 的 应 用 

它 知 识 图 谱 是 利用 计算 机 存储 ,管理 和 呈现 概念 及 
概 父 间 关系 的 一 种 技术 ,可 分 为 基于 RDF 存储 的 语义 
知 测 图谱 ( 即 关联 数据 ) 和 基于 图 数据 库 的 广义 知识 
EE. 语义 知识 图 谱 ( 关 联 数据 ) 侧重 于 知识 的 发 布 
和 链接 ,广义 知识 图 谱 更 侧重 于 知识 的 挖掘 和 计算 , 关 
联 妥 据 是 谷歌 知识 图 谱 的 延续 和 发 展 ,广义 知识 图 谱 


国内 关于 关联 数据 的 研究 除了 专业 期 刊 上 发 表 的 
大 量 研究 报告 和 论文 之 外 ,实践 应 用 主要 集中 在 文本 
数据 方面 ,如 上 海 图 书馆 推出 的 家 谱 知 识 库 .古籍 循 证 
平台 ` 名 人 手稿 知识 库 等 一 系列 关联 数据 应 用 平台 ” ; 
曾子 明 ” 将 关联 数据 技术 应 用 于 敦煌 视觉 资源 关联 展 
示 ; 伐 西 龙 等 ”将 关联 数据 用 于 非 物 质 文化 遗产 知识 
管理 研究 中 。 这 些 研究 也 可 以 看 成 是 知识 图 谱 的 应 用 
研究 ,然而 其 中 大 多 数 应 用 系统 都 是 使 用 关联 数据 技 
术 来 进行 元 数据 层面 的 知识 组 织 和 发 布 , 极 少 使 用 知 
识 图 谱 的 理念 对 资源 之 间 的 关系 进行 揭示 和 知识 推 
理 。 中 国 历代 人 物 传记 资料 库 ( China. Biographical Da- 
tabase Project,CBDB ) Ld 借助 知识 图 谱 的 理念 展现 了 
人 物 之 间 丰 富 的 亲属 及 社会 关系 ,形成 特有 的 社会 关 
系 网 络 , 并 可 通过 设置 推理 规则 实现 人 物 之 间 隐 性 关 
系 的 挖掘 与 呈现 。 但 通过 IUF .语义 知识 图 谱 ( 关 联 数 
据 ) 等 实现 图 像 资 源 的 整合 共享 和 复 用 的 实践 案例 还 
鲜 有 报道 。 

从 总 体 上 来 看 ,国外 有 将 关联 数据 IIF 、 机 器 学 习 
算法 等 AI 技术 同时 用 于 文本 和 图 像 资源 的 整合 与 知 
识 发 现 的 成 熟 实践 案例 ,也 得 到 同行 的 认可 ,是 未 来 数 


三 关中 丰富 的 图 运算 和 关联 数据 的 结合 将 会 带 来 数字 
/CZ 研究 的 新 时 代 中 。 在 图 情 界 和 数字 人 文 领域 , 提 
的 绕 多 的 是 语义 知识 图 谱 ( 关 联 数据 ) 。 

. 过 语义 知识 图 谱 ( 关 联 数据 ) 和 TF 互 为 补充 ,在 图 
像 将 源 关 联 整合 .共享 方 面 发 挥 重 要 作用 。 伏 尔 泰 书 
信 ( 潜 芬 奇 手稿 等 档案 资源 也 以 关联 数据 形式 和 IF 
对 惹 图像 资 源 进行 语义 组 织 和 发 布 。Linked Canvas ^ 
图 导语 义 注释 共享 解决 方案 是 Synaptica 开放 注释 语 
义 检 索 系 统 的 (Open Annotation Semantic Indexing Sys- 
tem, OASIS) 的 重要 补充 ,其 使 用 关联 数据 技术 i df 


字 人 文 研究 的 重要 方向 之 一 。 国 内 研究 主要 集中 在 关 
联 数据 技术 对 文本 信息 元 数据 的 描述 和 研究 ,对 于 数 
字 人 文 领域 基于 VILE 语义 知识 图 谱 ( 关 联 数据 ) 的 图 
像 资源 整合 和 知识 发 现 的 应 用 研究 不 多 ,还 存在 需要 
突破 的 技术 难点 和 较 大 的 挑战 。 因 此 ,本 研究 尝试 运 
H TF 以 及 语义 知识 图 谱 ( 关联 数据 ) 等 语义 技术 , 突 
破 技术 难点 ,建立 可 行 的 解决 方案 ,实现 图 像 资 源 的 整 
合 .隐形 关系 揭示 与 知识 发 现 。 


3 图像 资 源 整合 与 知识 发 现 解决 方案 


Cm 


本 体 对 图 像 内 容 进行 丰富 ,基于 关联 数据 平台 (LDP) , 
W3C 的 OADM 数据 模型 IIIF 语义 互 操 作 框 架 建 立 全 
球 文化 遗产 社区 非 文 本 数据 与 注释 数据 的 组 织 、 关 联 
和 共享 ,使 注释 能 够 在 不 同 的 硬件 和 软件 平台 上 共享 
和 重用 。 

机 器 学 习 / 神 经 网 络 算 法 等 人 工 智能 (AI) 技术 的 
进步 也 推动 着 语义 知识 图 谱 ( 关 联 数据 ) IIF 图 片 语 
义 检索 在 数字 人 文 领域 的 发 展 和 进步 。“ 威 尼斯 时 间 
机 器 ”( Venice Time Machine ) UNDE 是 瑞士 联邦 理工 
学 院 (EPFL) 数 字 人 文科 学 实验 室 利用 机 器 学 习 算 法 ， 
将 威尼斯 多 年 的 历史 以 动态 的 数字 化 形式 传承 下 来 ， 
再 现 这 座 十 城 辉 煌 的 共和 国 时 代 风 貌 ,揭示 整个 欧洲 
大 陆 当 时 的 社会 网 络 .贸易 和 知识 发 展 的 历史 。 


本 研究 通过 对 国外 成 功 的 实践 案例 进行 调研 和 剂 
析 ,提出 了 图 像 资 源 整 合 与 知识 发 现 解决 方案 ,并 基于 
印章 图 像 资源 构建 “印章 知识 中 心 ”, 对 解决 方案 的 可 
实施 性 进行 验证 ,实现 印章 图 像 资 源 与 其 他 资源 的 整 
合 ,以 语义 知识 图 谱 的 方式 实现 知识 发 现 。 

该 解决 方案 主要 涉及 基于 F 的 图 像 元 数据 描 
述 , 以 及 基于 语义 知识 图 谱 ( 关 联 数据 ) 的 知识 发 现 两 
部 分 ,其 中 基于 ITF 的 图 像 元 数据 描述 包括 图 像 API、 
呈现 API 及 图 像 注 释 ;基于 语义 知识 图 谱 ( 关联 数据 ) 
的 知识 发 现 包 括 KOS/ 本 体 构建 .关联 数据 发 布 服务 、 
语义 索引 及 语义 注释 ,同时 借助 深度 学 习 的 方法 实现 
图 像 检 索 ,最 终 实 现 资源 整合 .知识 图 谱 呈 现 及 知识 发 
现 服 务 。 解 决 方案 架构 如 图 1 所 示 : 
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300 基于 nr 和 OADM 的 图 像 元 数据 描述 

CIBUS e e e MIF 定义 了 一 组 通用 API 
(局 引 程 序 编程 接口 ) 规范 ,支持 图 像 存储 库 之 间 的 

作 性 。 从 最 基础 的 系统 层 ,解决 了 硬件 和 操作 
项 注 之 间 不 兼容 的 问题 。ITF 目前 拥有 4 个 标准 
AP 加 可 用 于 图 像 元 数据 的 规范 .图像 的 呈现 .语义 注 
箭 这 共享 ,以 及 语义 检索 ,也 可 以 根据 实际 需要 扩展 
新 的 API。 

三 “图 像 API( Image API) "可 作为 图 像 编 目 过 程 的 
SE id URI 指定 所 请 求 图 像 的 来 源 ` 区 域 ,大 小 、 
HE 质量 格式 等 。“ 呈 现 API(Presentation API)” 指 
定 三 个 返回 JSON-LD 结构 化 文档 的 Web 服务 ,共同 描 
ee en 比较 、 
使 用 者 在 线 标注 ,实现 有 出 处 来 源 与 可 控 的 分 享 。 其 
结构 包括 :整套 藏品 (collection ) .整个 物件 (manifest) 、 
所 有 张 页 的 顺序 ( sequence ) . 单 页 (canvas) ,相关 关系 
(anno) .数字 内 容 (content) ,可 为 每 个 图 像 注释 分 配 一 
个 唯一 的 HTTP URI, 实现 通过 HTTP. 在 线 访问 和 注 
释 , 在 原 有 系统 上 实现 图 片 的 递送 和 有 出 处 来 源 的 共 
享 ,最 终 可 以 实现 众多 资源 的 重新 组 合 ,实现 出 版 一 次 
复 用 多 次 。“ 搜 索 API( search API) ”可 支持 在 单个 
MF 资源 中 搜索 注释 内 容 。“ 验证 API(authentication 
API) ”描述 了 一 组 用 于 引导 用 户 完成 现 有 访问 控制 系 
统 的 工作 流程 。 

注释 (annotation) "是 在 不 同 信息 之 间 建 立 关联 
的 标记 行为 。W3C 的 OADM 开放 注释 数据 模型 提供 
了 一 个 可 扩展 的 ,可 互 操作 的 框架 用 于 表达 注释 ,使 得 
它们 可 以 在 平台 之 间 轻 松 共 享 ,以 最 简单 的 方式 满足 


最 复杂 的 需求 。0ADM 为 其 类 和 属性 定义 命名 空间 ， 
即使 本 体 发 生 更 改 ,命名 空间 URI 也 将 始终 保持 不 
变 。 所 有 版 本 的 本 体 都 将 从 特定 于 版 本 的 URL 保持 
可 用 ,并 且 命 名 空间 URI 将 提供 对 最 新 版 本 的 访问 。 
OADM 开放 注释 数据 模型 结合 MF 搜索 API 可 以 实 
现 图 像 的 结构 组 织 与 重用 ( 见 图 2) ,开放 注释 数据 内 
RENEE MF 呈现 API 的 canvas 上 ,可 以 标注 整个 
canvas ,或 者 部 分 区 域 ,区 域 选 择 可 以 是 任意 形状 , 注 
释 支 持 个 人 或 多 人 在 线 协作 ,可 以 众 包 的 形式 对 用 
户 开放 。canvas 作为 一 个 新 的 交互 层 和 链接 在 Web 
上 ,赋予 唯一 的 URI, 它 允许 任何 人 在 任何 地 方 注 释 
任何 内 容 ,无 论 是 网 页 .电子 书 视频、 图 像 音 频 流 ， 
还 是 原始 或 可 视 化 形式 的 数据 ,其 在 不 同 服 务 之 间 
实现 标注 内 容 的 链接 和 共享 ,并 可 追溯 到 它们 的 起 
源 ,便于 搜索 和 发 现 。 


Canvas-flr 


A 


HA 


图 2 


MIF 和 OADM 的 图 像 语义 注释 图 解 


IIF 和 OADM 开放 注释 数据 模型 等 国际 开放 标准 
的 使 用 都 为 进一步 实现 图 像 的 语义 检索 和 知识 图 谱 的 
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构建 商定 了 基础 。 笔 者 团队 在 图 像 资 源 整合 与 知识 发 
现 解 决 方案 与 "印章 知识 中 心 " 对 IIUF 图 像 API 的 使 用 
进行 尝试 ,最 终 实现 印章 图 像 的 深度 缩放 和 在 线 调 用 ， 
可 通过 URI 指定 所 请 求 印章 图 像 的 来 源 、 区 域 . 大 小 、 
角度 、 质 量 格式 等 ;采用 IHE 呈现 API 描述 印章 资源 
的 结构 和 布局 ,可 用 于 多 个 印章 图 像 的 比较 、 使 用 者 在 
线 标注 ,实现 有 出 处 来 源 与 可 控 的 分 享 ,OADM 开放 注 
释 数据 内 容 标注 在 canvas 上 ,目前 采用 将 整 段 注释 标 


202304.00278v1 


3M 图 像 描述 内 容 知识 组 织 与 关联 数据 发 布 
6G(1 ) 图 像 描述 内 容 的 知识 组 织 。 解 决 方案 中 采用 
用 于 图 像 描述 内 容 的 知识 组 织 , 在 本 体 设 计时 , 尽 
量 各 用 已 有 本 体 的 类 和 属性 ,依据 该 原则 ,印章 本 体 在 
设计 时 复 用 了 shl ,foaf 等 这 些 命名 空间 下 面 定义 的 类 
和 属性 , 详 见 表 1。 另 外 ,印章 平台 扩展 了 owner 用 来 
实现 印章 平台 和 上 海 图 书馆 人 名 规范 库 的 资源 的 关 
联 , 同 时 采用 了 sameAs 和 owner 实现 其 他 不 同 数据 集 
之 间 的 关联 。 
表 1 用 于 组 织 印章 内 容 本 体 的 核心 类 与 属性 


名 称 类 型 描述 
shl :Seal 类 印章 类 
shl; sealCharacters 对 象 属性 印章 印 文 
shl :owner 对 象 属性 印章 主人 
shl :ownerOfSeal 数据 属性 印章 主人 
foaf:img 对 象 属性 印章 图 片 


基于 本 体 对 印章 内 容 进 行 知识 组 织 的 RDF 示例 
如 下 : 


注 在 整个 canvas 上 的 方式 ,将 IF 呈现 API 和 OADM 
注释 做 了 有 意义 的 尝试 和 探索 ,在 接 下 来 的 工作 中 可 
采用 众 包 等 多 人 在 线 协作 的 形式 进行 更 深入 的 分 区 注 
释 , 或 者 基于 OCR 按照 字符 进行 注释 ;采用 ITUF 搜索 
API 实现 印章 图像 的 图 像 检索 .注释 检索 和 文本 检索 ; 
因为 印章 平台 尚未 涉及 权限 的 控制 问题 ,所 以 在 平台 
中 没有 使 用 验证 API ,后 续 如 果 需 要 可 进行 扩展 ,如 图 
3 Hr: 


20 results found for WEE 


图 3 基于 JIIFAPIs 5 OADM 的 图 像 资源 呈现 


< http ;// data. library. sh. cn/gj/entity/seal/rvwiaglulyjahz33 > a shl:Seal ; 
rdfs label " ÆR ZÆ 6" @ chs, "ERZ 6" 9? cht ; 


foaf;img «http ;// data. library. sh. cn/gj/resource/img/hy4gevSimtzevnhj > ; 
foaf;img «http ;// data. library. sh. cn/gj/resource/img/ dkg I3vqqspredvqy > ; 
foaf;img «http ;// data. library. sh. cn/gj/resource/ img/ wf11m863dy8v4222 > ; 
foaf;img «http ;// data. library. sh. cn/gj/ resource/img/ iuyj lieqbeerc3zu > ; 
foaf;img «http ;// data. library. sh. cn/gj/resource/img/ pj25prroelol3hdq > ; 


shl;ownerOfSeal "WHS" ; 


shl:sealCharacters " 董 氏 玄 宰 6" 9 chs, " 董 氏 玄 字 6" @ cht; 


shl :owner <http://data. library. sh. cn/entity/person/7jfqnSvittx6efhl > 

(2) 图 像 描述 内 容 的 关联 数据 发 布 。 本 模型 使 用 
SinoPedia 关联 数据 发 布 平 台 (SinoPedia Platform, LD- 
SP) ”将 图 像 内 容 实现 七 星 标准 ”关联 数据 的 发 布 
( 见 图 4) ,LDSP 是 本 团队 的 前 期 研究 成 果 , 它 不 仅 可 
以 作为 独立 的 知识 库 进 行 资源 检索 ,还 可 以 作为 关联 
数据 发 布 中 心 (Linked Data Hub) 来 发 布 多 源 的 关联 数 
据 集 ,并 提供 相关 资源 的 关联 数据 发 布 和 内 容 协 商 服 
务 。 

LDSP 平台 提供 的 关联 数据 转换 服务 (linked data 
transformation service , LDTS) 可 将 非 结 构 化 、 半 结构 化 、 
结构 化 的 数据 转换 成 关联 数据 并 存储 在 三 元 组 数据 库 
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非 结 构 化 数据 
(文本 文件 ) 


[xs] 

EB| — E —^ 
结构 化 数据 
(电子 表格 ) 


v d gt 


结构 化 数据 

— (RDF 知识 库 ) 
结构 化 数据 
(SON 文档 ) 


ts 
EZI) 


结构 化 数据 
(关系 型 数据 库 ) 


4 印章 平台 调用 LDSP 服务 解析 


Vent Virtuoso ) ;关联 数据 查询 服务 (linked data 
query service,LDQS ) 为 不 同 的 数据 集 提 供 SPARQL Hi 
JE Ie ji SPARQL 联合 查询 ;关联 数据 发 布 服务 (linked 
data publishing service, LDPS) ,支持 单个 LODVIEW F 

MEA A SPARQL 端点 ,在 SinoPedia 上 显示 不 同 站 


IEA 


PATEAR E A E B SEA IO E RU Ae f 
3e S3 p MRR3 (linked data knowledge service, 
LBKS) 通过 集成 LODLIVE 模块 实现 对 关联 的 多 源 数 
据 老 进行 知识 整合 和 知识 图 谱 展示 。 

.二 通过 该 模型 构建 的 七 星 关联 数据 知识 库 支 持 多 种 


[前 和 程序 的 开发 和 数据 调用 ,这 种 基于 语义 (概念 ) 和 
关联 数据 知识 库 的 检索 方式 ,增强 了 图 像 资源 相关 联 
的 语义 内 容 。 
3.3 ”图 像 资源 整合 ,知识 图 谱 与 知识 发 现 

(1) 图 像 资源 整合 与 知识 图 谱 的 构建 。 语 义 知 
识 图 谱 ( 关 联 数据 ) 本 质 上 是 一 种 由 知识 点 相互 连接 
而 成 的 语义 网 络 ,支持 搜索 引擎 进行 知识 发 现 .索引 
以 及 可 视 化 呈现 。 本 研究 借助 LDSP 平台 提供 关联 
数据 知识 服务 (LDKS)( 见 图 4) 实现 知识 图 谱 与 知识 
发 现 的 应 用 ,LDKS 提供 的 知识 图 谱 和 可 视 化 等 相关 
技术 ,可 将 不 同 知识 库 ( 包括 LOD 中 的 关联 数据 集 和 
上 海 图 书馆 发 布 的 关联 数据 集 ) 中 的 多 源 数 据 集 融 


A 
Ho 


发 布 的 关联 数据 知识 库 可 以 实现 与 外 部 关联 数据 
知识 库 的 关联 与 融合 ,外 部 的 关联 数据 知识 库 为 图 像 
描述 提供 更 丰富 的 关联 和 语义 增强 ,也 为 知识 图 谱 可 


视 化 提供 丰富 的 资源 。 不 同 主题 的 数据 集 可 以 根据 内 
容 关 联 不 同 的 外 源 关 联 数据 知识 库 。 

不 同 数据 集资 源 之 间 的 关联 与 融合 主要 是 通过 
OWL 的 sameAs, seeAlso 等 属性 , 其 中 使 用 较 广 的 
sameAs 用 于 连接 两 个 实体 是 相同 的 本 体 之 间 的 映射 。 
LDKS 服务 将 主要 数据 集 的 sameAs 关系 抽取 到 一 个 中 
心 池 ( 存 放 sameAs 的 graph) , ff Jy poc" 映射 层 的 网 
络 基 础 设施 ,统一 动态 收割 sameAs 属性 ,并 对 有 关系 
的 数据 集 建 立 双向 链接 。 其 他 外 部 数据 集 与 中 心 库 任 
意 数据 集 建 立 链接 , 将 自动 获取 与 其 相关 的 数据 集 
sameAs 关系 。 

人 物 是 印章 平台 的 核心 要 素 ,在 做 印章 知识 图 谱 
时 ,主要 以 藏 印 主人 为 核心 关联 对 象 进 行 不 同 数据 源 
之 间 的 信息 关联 与 融合 ,外 部 关联 数据 知识 库 包 括 来 
自 关联 数据 云 (Linked Open Data Cloud, LOD) 的 LOC , 
VIAF 以 及 DBpedia 数据 集 , 也 包括 来 自 上 海 图 书馆 开 
放 的 人 名 规范 档 古籍 知识 库 .SinoPedia 以 及 CBDB 等 
数字 人 文 研究 国家 数据 基础 设施 。 关 联 后 的 数据 集 经 
由 知识 图 谱 的 可 视 化 展示 ,可 以 从 多 个 角度 揭示 图 像 
背后 蕴含 的 丰富 内 容 , 这 些 都 为 图 像 的 语义 检索 提供 
了 知识 来 源 ,最 终 实 现 跨 数据 集 之 间 资 源 的 知识 发 现 ， 
帮助 用 户 更 好 地 从 关联 数据 中 挖掘 .分 析 隐 含 知识 , 提 
供 多 维 知识 服务 , 见 图 5。 

(2) 基 于 机 器 学 习 的 图 像 检 索 与 知识 发 现 。 图 像 
的 非 文本 内 容 OCR 很 难 识别 ,印章 图 像 中 的 内 容 多 为 
繁体 字 古文 字 , 也 给 OCR 的 识别 带 来 了 难度 ,本 研究 
可 以 尝试 采用 深度 学 习 的 方法 来 进行 图 像 特征 的 识别 
和 提取 ,最终 实现 图 像 检 索 ,尝试 用 人 工 智 能 的 手段 畏 
助 知 识 发 现 。 
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ON 卷 积 神 经 网 络 ( Convolutional Neural Networks ,简称 
CANS) 是 一 种 深度 的 监督 学 习 下 的 机 器 学 习 模 型 ,具有 
极 强 的 适应 性 ,善于 挖 所 数据 局 部 特征 ,提取 全 局 训练 
等 入 和 分 类 。 它 的 权 值 共享 结构 网 络 使 之 更 类 似 于 生 

笃 网 络 , 在 模式 识别 各 个 领域 都 取得 了 很 好 的 成 
BC EET ET. SIFT HOG 等 特征 的 图 像 分 类 方法 , 基 
IENS 的 方法 有 更 强 的 高 层 语义 抽象 能 力 ,同时 CNNs 
有 党 天 然 的 平移 不 变性 和 训练 可 得 的 一 定 范围 内 的 尺 

变性 ,这 些 特性 也 都 是 图 像 分 类 所 必须 具备 的 。 

人 本 模型 采用 牛津 大 学 VGG 组 提出 的 深度 CNNs 模 
型 GG16 进行 图 像 特征 提取 , 它 改进 了 AlexNet 中 的 
较 编 卷 积 核 ,采用 连续 的 几 个 小 的 卷 积 核 代 闪 ,采用 堆 
积 的 小 卷 积 核 是 优 于 采用 大 的 卷 积 核 ,因为 多 层 非 线 
性 层 可 以 增加 网 络 深度 来 保证 学 习 更 复杂 的 模式 ,而 
且 代价 还 比较 小 (参数 更 少 ) ,在 图 像 分 类 等 任务 中 取 


得 了 不 错 的 效果 ,如 图 6 所 示 : 


24x224x64 


1x1x4096 1x1x1000 
S ed 


g convolution+ ReLU 
max pooling 

g fully connected+ReLU 

( voftmax 


6 深度 卷 积 神经 网 络 模型 YGG16 原理 


5 图 像 资 源 整 合 与 知识 图 谐 呈 现 


通过 使 用 模型 YGG16 对 印章 图 像 特征 进行 提取 ， 
形成 印章 图 像 特征 库 ;在 用 户 端 ,对 用 户 用 于 检索 的 图 
像 也 通过 使 用 VGG16 模型 ,提取 图 像 特 征 , 并 与 已 形 
成 印章 图 像 特 征 库 的 特征 进行 对 比 检索 ,完成 基于 图 
像 特征 的 图 片 检索 。 用 户 可 根据 偏差 度 选择 相关 检索 
结果 中 的 图 像 ,每 个 图 像 都 关联 整合 了 跨 库 的 相关 资 
源 ,点 击 可 以 以 知识 图 谱 的 方式 呈现 不 同 的 资源 之 前 
的 关系 ,进一步 点 击 可 通过 知识 图 谱 进行 可 视 化 查询 ， 
实现 知识 发 现 , 具 体 实例 如 图 7 所 示 : 


EEST CEN EE 
Sael Hha Ee GS) 


图 7 基于 VGG16 实现 图 像 检索 
4 图 像 资源 整合 与 知识 发 现 解决 方案 应 
用 案例 分 析 


印章 是 一 类 比较 有 代表 性 和 研究 意义 的 图 像 , 除 
了 单独 的 印章 图 像 ,还 广泛 存在 于 大 幅 的 画卷 中 ,也 可 
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作为 画卷 的 局 部 进行 注释 和 标记 。 印 章 图 像 中 除了 印 
文 外 ,还 有 很 多 相关 信息 , 比如 印章 持 有 者 的 人 物 信 
息 .印章 使 用 的 历史 背景 ,印章 的 变迁 等 ,这 些 深层 次 
的 内 容 通过 语义 标注 可 以 极 大 丰富 印章 的 内 容 , 有 利 
于 实现 图 像 资源 整合 与 知识 发 现 。 笔 者 为 了 采用 一 些 
实例 数据 对 图 像 资源 整合 与 知识 发 现 解决 方案 进行 验 
证 ,构建 了 “印章 知 识 中 心 "。“ 印 章 知识 中 心 ”目前 共 
收录 15 053 枚 印章 ,包括 爱 新 觉 罗 弘 历 ,张大 千 \ 董 其 
昌 等 人 ,实现 了 印章 知识 库 与 上 海 图 书馆 人 名 规范 库 、 
古籍 知识 库 .CBDB 的 整合 与 关联 。 

本 部 分 以 “印章 知识 中 心 "中 与 董 其 昌 相 关 的 160 
枚 印章 为 应 用 案例 ,对 模型 的 可 用 性 和 有 效 性 进行 分 
析 和 验证 ,用 户 可 登陆 “印章 知识 中 心 "尝试 获取 更 多 
数据 以 及 其 他 人 物 的 知识 发 现 。 董 其 昌 (1555 - 
1636) , 字 玄 宁 , 明 朝 后 期 大 臣 ,著名 书画 家 。“ 印 章 知 
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识 中 心 ” 中 收录 董 其 昌 相 关 印 章 160 枚 ,目前 主要 包含 
印 文 和 印章 主人 两 类 信息 。 董 其 昌 50 岁 以 前 所 用 姓 
名 字号 印 有 “ 董 其 昌 (16 枚 ) “ 董 其 昌 印 (43 枚 ) “E 
氏 玄 字 (20 枚 )”;50 -59 岁 增 加 "其 昌之 印 (1 枚 ) ”及 
"3X 55(12 枚 )”,60 -69 岁 增 加 “其 昌 ” 玄 字 (21 
枚 ) RA” ,69 岁 开 始 有 “ 昌 ” 字 印 ,80 2 HIT IUS 
(2 BO" Bl; 

“印章 知识 中 心 ”通过 SPARQL 联合 查询 可 以 实 
现 关联 的 知识 库 中 的 隐 含 关系 ,发 现 背 后 的 知识 ,如 图 
8 通过 SPARQL 联合 查询 ,以 及 扩展 的 owner 实现 印章 
平台 与 上 海 图 书馆 人 名 规范 库 的 关联 ,通过 存放 
sameAs 的 graph 实现 上 海 图 书馆 人 名 规范 库 与 CBDB 
知识 库 的 关联 ,进而 发 现 “ 董 其 昌 的 妻子 是 明代 成 山 ” 


这 一 隐 含 知识 。 


8 不 同 知识 库 之 间 隐 含 关系 推理 过 程 


实现 图 7 推理 过 程 的 SPARQL 联合 查询 语句 如 下 : 
PREFIX owl; «http://www. w3. org/2002/07/owl# > 
PREFIX shl; «http://www. library. sh. cn/ontology/ > 
PREFIX rdfs: «http://www. w3. org/2000/01/rdf - schemast > 
PREFIX foaf; «http;//xmlns. com/foaf/0. 1/ > 
SELECT ? name ? dynasty 
WHERE | 

SERVICE « http ;//data. library. sh. en;8890/sparql > | 

? seal a shl :Seal; 
shl :sealCharacters " 3E [& Zz 5E 7" @ cht; 


shl :owner ? owner. 


7 owner owl:sameAs ? uri. 


SERVICE «http ;//cbdb. library. sh. en/spargl > | 
? rel a shl; Relationship; 
shl : relationLabel S£ T-5 
shl;relationSubject ? uri; 
shl;relationObject ? obj. 
? obj foaf;name ? name; 
shl ; temporal/shl : dynasty ? dynasty. 
FILTER (lang(? name) = tht) 
FILTER (lang(? dynasty) = tht) 
} 
| 


印章 平台 除了 支持 SPARQL 联合 查询 ,也 支持 基 
于 知识 图 谱 的 可 视 化 语义 查询 ,通过 点 击 知识 图 谱 上 
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不 同 的 指向 ,进行 不 同 知识 库 之 间 的 联合 查询 。 如 图 
9 可 以 通过 点 击 不 同 指向 查询 上 海 图 书馆 人 名 规范 


昌 的 妻子 是 明代 成 册 ”, 也 可 以 通过 点 击 不同 指 向 查询 
上 海 图 书馆 古籍 知识 库 发 现 董 其 昌 相 关 的 两 部 古籍 


库 .CBDB 知识 库 , 在 知识 图 谱 上 更 直观 地 看 出 “ 董 其 


上 海 图 书馆 人 名 规范 库 
o 


加 通过 印章 平台 获取 的 “ 董 其 昌 的 麦子 是 明代 成 
晴 = 以 及 董 其 昌 相关 的 两 部 古籍 4 黄 庭 经 》 和 《百花 亭 》 
明 朱 本 的 发 现 ,是 传统 的 数据 库 不 能 实现 的 ,这 也 进 一 
Ha " 


验证 了 图 像 知识 组 织 模型 对 图 像 语 义 增强 的 可 用 性 


上 际 图 像 互 操作 框架 IIF 、 关 联 数据 和 知 

昌 像 资源 整合 与 知识 发 现 领 
域 网 应 用 做 了 深入 研究 和 探索 ,并 围绕 图 像 数据 特 征 ， 
看 了 一 套图 像 资源 整合 与 知识 发 现 解决 方案 。 该 解 
决 方案 从 底层 数据 建设 开始 使 用 关联 数据 开放 标准 ， 
并 支持 复 用 国内 外 开放 的 关联 数据 集 ,同时 将 TIF 和 
OADM 两 个 国际 通用 标准 相 结合 ,实现 “印章 知识 中 
心 " 和 其 他 馆藏 机 构 之 间 图 像 资源 的 互 操作 ,实现 了 有 
出 处 来 源 和 受 控 的 分 享 与 复 用 。 模 型 也 尝试 使 用 
CNNs 对 图 像 特征 进行 提取 ,实现 基于 机 器 学 习 的 图 像 
村 征 检索 ,同时 以 知识 图 谱 的 可 视 化 方式 实现 多 数据 
源 的 图 像 关联 知识 的 语义 检索 与 知识 发 现 。 

该 解决 方案 可 用 于 数字 人 文 领域 包括 印章 ,绘画 
等 图 像 资源 的 整合 .共享 与 知识 发 现 ,以 及 数字 人 文 研 
究 平台 和 研究 环境 的 构建 ,对 于 推动 图 书馆 馆藏 . 特 
藏 古籍 图 像 资源 的 语义 化 建设 具有 十 分 重要 的 意义 。 
与 国际 知名 Linked Canvas 图 像 语义 注释 共享 解决 方 
案 相 比 ,该 解决 方案 侧重 于 基于 IF ,知识 图 谱 ( 关 联 
数据 ) 的 图 像 资源 的 整合 与 知识 发 现 ,在 图 像 内 容 的 语 


《 黄 庭 经 》 和 《百花 亭 》 明 抄本 。 


9 ”知识 图 谱 可 视 化 语义 查询 


义 注释 方面 ,实现 了 基于 OADM 数据 模型 的 图 像 整 体 

的 注释 ,成 功 探索 了 基于 F 和 OADM 数据 模型 的 

像 资 源 的 注释 ,关联 和 共享 的 解决 方案 ,可 以 在 进一步 

的 研究 中 用 于 在 线 多 人 协作 的 图 像 局 部 注释 与 共享 ， 

实现 更 深层 次 的 知识 发 现 ,也 可 为 科研 人 员 提 供 更 便 

捷 的 在 线 协作 的 学 术 研 究 环境 。 
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N Abstract: | Purpose/ significance | The image resources of digital humanities research contain a lot of informa- 
Ction but the utilization rate is extremely low, so it cannot be effectively shared and reused in heterogeneous databases 
and different applications. The International Image Semantic Interoperability Framework (IIIF) breaks the barriers to 
image resource exchange and sharing. | Method/process | This study combined IIIF and semantic knowledge graph 
(linked data technology) to integrate, share and discover knowledge of image resources, reveal the relationship be- 
en resources and knowledge reasoning, and it realized semantic retrieval based on image features to assist knowl- 
e discovery by the feature extraction and recognition of image features through CNNs algorithm. | Result/conclu- 
sion | Finally, a set of digital human image resource integration and knowledge discovery solutions was proposed , and 
the “Seal Knowledge Center" was constructed with the seal image resources as the application object to empirically 
test the feasibility and practicality of the above solutions. 
Keywords: digital humanity image resource integration IIF linked data knowledge graph knowledge dis- 


covery 
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